TrainingLanguageModelsForSocialDeduction WithMultiAgentReinforcementLearning

Posted by 云起 on 2025-03-03
Estimated Reading Time 11 Minutes
Words 3.1k In Total
Viewed Times

Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning

[toc]

概述

  • 问题背景
    • 社交推理游戏(如《Among Us》)要求玩家通过沟通与观察推断隐藏角色(如“内鬼”),是研究多智能体协作与对抗的理想场景。
    • 自然语言沟通是多智能体协作的关键,但现有方法依赖大量人类示范数据或难以生成自然有效的对话策略。
  • 现有挑战
    • 稀疏奖励信号:仅依赖游戏胜利的奖励难以优化复杂的沟通行为。
    • 听与说的双重需求:智能体需同时学会解析他人信息(听)和生成有效信息(说)。
  • 研究目标
    • 无需人类数据:通过强化学习自监督优化语言模型的沟通能力。
    • 提升胜率与策略多样性:在对抗性环境中实现类似人类的社交推理行为。

方法

1.框架设计

  • 环境建模:将游戏建模为部分可观察马尔可夫游戏(POMG),引入自然语言作为动作与观测的载体。

  • 语言模型选择:采用RWKV模型(线性注意力机制),支持长序列处理与低计算开销。

2. 关键创新

  • 听的优化(Listening)
    • 监督学习任务:通过预测内鬼身份的准确率提供密集奖励(公式2)。
    • 目标:增强模型从对话中提取关键信息的能力。
  • 说的优化(Speaking)
    • 多智能体强化学习:奖励消息对其他智能体内鬼信念的影响(公式5-6)。
    • 目标:生成能引导队友正确投票的对话。
  • 对抗训练
    • 通过自我对抗(Self-Play)迭代优化内鬼与船员的策略,提升鲁棒性。

创新点

1. 现有方法的缺陷

  • 缺陷1:依赖人类示范数据
    传统多智能体强化学习(MARL)方法(如Cicero [8])需大量人类对话数据训练,难以泛化到新任务(如《Among Us》),且收集成本高。
  • 缺陷2:稀疏奖励信号
    仅依赖最终胜负的奖励(+1/-1)无法指导复杂的沟通行为(如“何时提供证据”“如何反驳”),导致策略收敛困难。
  • 缺陷3:听与说分离优化
    现有工作(如RLHF [28])侧重单方面优化“说”的能力(生成合理文本),但忽略“听”的推理能力(解析他人意图),导致沟通效率低。

2.听的优化——内鬼身份预测(Imposter Prediction)

目标:通过监督学习增强模型从对话中提取关键信息的能力。

公式与实现

  • 监督信号定义
  • :智能体的动作-观测历史(含对话记录)。
  • q:正确投票内鬼的动作(监督标签)。
  • 物理意义:强制模型根据历史信息(包括对话)最大化正确投票概率,类似分类任务。

优势

  • 密集奖励:在讨论阶段的每一步提供即时反馈,加速收敛。
  • 无需人类数据:直接利用游戏内真实标签(内鬼身份)作为监督信号。

3.说的优化——基于影响的对话奖励(Reinforced Discussion Learning)

目标:通过强化学习激励智能体生成能改变队友信念的有效消息。

公式与实现

  • 信念变化奖励
  • :当前时刻所有存活船员对内鬼的置信度总和。

  • :说话者i的奖励=消息发布后置信度增量。

  • 物理意义:消息越能提升队友的准确判断,奖励越高。

训练目标

  • 综合强化学习损失()、听损失()、说奖励()。
  • :奖励系数,控制说话优化的权重。
  • :折扣银子

优势

  • 因果性奖励:直接量化消息对队友决策的影响,避免生成无意义对话。
  • 自洽优化:听与说协同训练,消息生成与解析能力同步提升。

4.对抗训练与鲁棒性提升(Self-Play)

目标:通过迭代对抗训练,使船员策略适应动态变化的内鬼策略。

公式与实现

  • 内鬼训练目标(公式8):

    • 内鬼的说话奖励符号与船员相反(最大化误导船员)。

动态平衡机制

  • 每轮训练中,船员与内鬼策略交替更新(图5)。
  • 冻结部分船员策略(防止退化策略,如全体沉默)。

优势

  • 策略多样性:内鬼学会反指控(如“玩家Red才是内鬼!”),船员学会识别欺骗。
  • 鲁棒性验证:胜率在对抗训练后稳定(51%-56%),表明无过拟合。

5.方法对比

维度 传统MARL(如PPO) 本文方法(RL+L+S)
奖励信号 稀疏(仅胜负) 密集(听+说+胜负)
数据依赖 需人类示范 完全自监督
沟通能力 生成文本质量低、无策略性 生成指控、证据、反欺骗等策略
训练稳定性 易陷入局部最优(如沉默) 通过冻结策略与KL约束保持稳定

6.核心公式

1
2
3
4
5
        Listen Loss (L_L)  

RL Loss (L_RL) → Combined Loss (L_RL+L+S)

Speak Reward (r_i^s)
  • 听与说的协同:听的监督信号提升信念预测能力,说的奖励机制利用该能力生成有效消息。
  • 对抗训练闭环:船员与内鬼通过动态博弈优化,形成复杂策略平衡。

7.总结

  • 方法优势
    • 通过听与说的联合优化,实现无需人类数据的自然语言沟通。
    • 引入密集奖励与对抗训练,解决稀疏奖励与策略退化问题。
  • 公式设计关键
    • 监督学习(听)与强化学习(说)的数学融合。
    • 奖励函数直接关联智能体决策的因果影响。

实验

1.基础模型性能对比

  • 比较不同参数规模的RWKV模型在任务中的表现,包括预测准确率(Accuracy)、环境观测困惑度(PPL-World)和语言模型困惑度(PPL-LM)。
  • 关键数据
    • 1.5B模型在准确率(0.62)与计算效率间达到最佳平衡,优于7B模型(0.65)但参数量更少。
    • PPL-World(环境理解能力)随模型规模增大而降低(1.5B: 0.28 → 7B: 0.22)。

结论

  • 选择1.5B参数模型作为基础,因其在性能与计算成本间达到最优权衡。
  • 模型规模并非越大越好,任务特定优化(如听与说的联合训练)更为关键。

2.不同训练方法的胜率对比

  • 在基础环境(2×2网格,4船员1内鬼)中,对比以下方法的胜率:
    • Base Model(未训练RWKV):胜率<20%。
    • RL(纯强化学习):胜率约30%。
    • RL+L(强化学习+听优化):胜率约50%。
    • RL+L+S(听+说联合优化):胜率约60%。

关键发现

  • 听与说的协同效应:RL+L+S胜率是纯RL的2倍,说明联合优化显著提升沟通效率。
  • 仅听优化的局限性:RL+L虽优于RL,但缺乏主动引导对话的能力,胜率仍有限。

3.环境变化的鲁棒性测试(图4)

图表内容

  • 测试模型在以下环境变化中的胜率:
    • 地图尺寸(1×3, 2×2, 2×3网格)。
    • 任务数量(3/4/5任务)。
    • 船员数量(4-6人)。

关键发现

  • 地图尺寸影响小:胜率在不同尺寸间波动<5%,模型能适应空间结构变化。
  • 任务数量增加:胜率下降(任务越多,船员倾向于优先完成任务而非投票)。
  • 船员数量增加:胜率显著提升(容错率提高,错误投票影响降低)。

结论

  • 方法在未训练的环境配置中表现稳定,验证了泛化能力。

4. 对抗训练的稳健性验证(图5)

图表内容

  • 展示自我对抗训练(Self-Play)迭代中,船员胜率的变化:
    • 初始策略(迭代0):胜率约60%。
    • 对抗训练后(迭代3+):胜率收敛至51%-56%。

关键发现

  • 策略动态平衡:内鬼学会反指控(如“玩家Red可疑!”),船员学会识别欺骗,形成策略博弈。
  • 胜率稳定区间:最终胜率保持在50%左右,接近纳什均衡,说明无策略退化。

5. 失败案例分析(第6.3节)

问题与解决方案

  • 退化策略(如全体沉默)
    • 现象:船员通过不发言规避风险。
    • 解决:冻结部分船员策略(强制多样性)。
  • 非自然语言生成
    • 现象:模型输出乱码或动作令牌。
    • 解决:引入世界建模损失(公式9),保持语言生成能力。

6. 对话样本分析(附录C)

示例1:船员通过环境证据指控内鬼

1
2
3
Player Yellow: "Player Green在房间(0,1)离开尸体!"  
Player Green(内鬼): "我什么都没做!"
投票结果:Player Green被驱逐,船员胜利。

示例2:内鬼反指控成功

1
2
3
Player Red(内鬼): "Player Blue才是内鬼!"  
Player Blue: "我在做任务,有记录!"
投票结果:Player Blue被错误驱逐,内鬼胜利。

结论

  • 模型能生成类人策略(证据引用、反指控、谎言)。
  • 对话质量直接影响游戏结果,验证了方法的有效性。

7.总结

实验维度 核心结论
基础模型选择 1.5B RWKV在效率与性能间最优
听与说联合优化 RL+L+S胜率是纯RL的2倍
环境鲁棒性 胜率在未训练配置中波动<10%
对抗训练 策略收敛至稳定纳什均衡(胜率51%-56%)
失败案例解决 通过冻结策略与KL约束保持自然语言生成

图表联动启示

  • 图3+图5:听与说的联合优化(图3高胜率)需对抗训练(图5稳定性)支持,避免过拟合。
  • 图4+附录C:泛化能力(图4)依赖多样化的策略生成(附录C样本)。

可探索点

技术层面

  1. 任务依赖性的突破
    • 现状:当前方法需手动定义预测目标(如内鬼身份),限制了迁移能力。
    • 改进方向
      • 自动目标发现:引入元学习或因果推理,让模型自主识别场景中的关键推理目标(如“谁在破坏任务”“谁在传播虚假信息”)。
      • 多任务联合训练:在多个社交推理游戏(如《狼人杀》《密室逃脱》)中共享表征,提升泛化性。
  2. 真实性约束的挑战
    • 问题:智能体可能生成虚假信息(如伪造证据),在现实应用中存在伦理风险。
    • 解决方案
      • 真实性奖励:在奖励函数中引入事实核查机制(如对比环境观测与对话内容的一致性)。
      • 人类反馈集成:结合RLHF(Reinforcement Learning from Human Feedback),让人工标注者评估消息的真实性。
  3. 长程推理的局限性
    • 当前瓶颈:模型在长对话序列中可能遗忘关键信息(如早期证据)。
    • 潜在优化
      • 外部记忆模块:为语言模型添加可读写的记忆存储,支持长期依赖(类似Park et al. [29] 的长期记忆流)。
      • 分层注意力机制:区分“环境观测”“他人发言”“自身策略”等不同信息源,提升推理效率。

应用场景

  1. 虚拟协作场景

    • 智能客服协作:多个客服机器人通过自然语言协调解决复杂用户问题(如跨部门工单分配)。
    • 游戏NPC智能化:在开放世界游戏中,NPC基于动态环境生成拟人化对话与策略(如《模拟人生》中的角色互动)。
  2. 现实对抗场景

    • 网络安全防御:训练多智能体模拟攻击者与防御者,通过对话推理识别潜在威胁(如钓鱼攻击溯源)。
    • 商业谈判模拟:构建虚拟谈判对手,帮助人类练习应对策略(如价格协商、合同条款博弈)。
  3. 教育与培训
    • 社交技能训练:为自闭症患者或社交焦虑者提供虚拟社交场景,通过智能体互动练习沟通技巧。
    • 团队协作评估:分析多人协作任务中的沟通效率,为企业团队建设提供数据支持。

If you like this blog or find it useful for you, you are welcome to comment on it. You are also welcome to share this blog, so that more people can participate in it. If the images used in the blog infringe your copyright, please contact the author to delete them. Thank you !